Python3的pytesseract和Tesseract 您所在的位置:网站首页 tesseract 训练接口 Python3的pytesseract和Tesseract

Python3的pytesseract和Tesseract

2023-10-06 03:38| 来源: 网络整理| 查看: 265

Python3的pytesseract和Tesseract-ocr的使用以及自己训练数据集的方法。

一、安装pytesseract

pip install pytesseract -i https://mirrors.aliyun.com/pypi/simple/

二、安装PIL和pillow库

三、下载Windows tesseract-ocr并配置其环境(网上有很多教程大家可以自行收集),内容和配置python的编译环境差不多。

四、修改pytesseract.py

到你的Python的Lib\site-packages\pytesseract中找到pytesseract.py并修改其中的tesseract_cmd

修改为:(亦可以报错后直接找到该文件后修改)

tesseract_cmd = 'D:/Tesseract-OCR/tesseract.exe'(环境位置)

五、训练数据集

(1)下载jTessBoxEditor(网上搜索,可自行下载)

(2)安装jdk1.8以上的环境

(3)准备训练的标本,比如我的:you dont konw how hard to understand(有单词错误请自行忽略),图片越多越好,但是为了方便,此处随便打字并截取图片,大家可以自行选择。

 (4)将照片转化合并为tif格式,方便数据训练。

 选择merge TIFF,并选择图片,然后将它保存。

(5)在新建的tif文件夹的导航栏输入cmd,弹出命令行窗口。

(6)按照图片进行设置

(7)训练语言设置为yy,训练文件夹自行选择好,之后选择make box file only,点击run。

(8)在cmd命令行处依次输入:

tesseract yy.test.exp0.tif yy.test.exp0 nobatch box.train echo test 0 0 0 0 0 >yy.font_properties unicharset_extractor yy.test.exp0.box

 

 

 (9)选择如下图,点击run:

 (10)最后执行:

combine_tessdata yy.

 (11)将生成的“yy.traineddata”语言包文件复制到Tesseract-OCR 安装目录下的tessdata文件夹中

Log输出中的Offset 1、3、4、5、13这些项不是-1,表示新的语言包生成成功,就可以使用训练生成的语言包进行图像文字识别了。

(12)代码测试

from PIL import Image import pytesseract img = Image.open("G:\\videos\\wvax_2\\train2\\yy.test.exp0.jpg") ocr_str = pytesseract.image_to_string(img,lang='yy',config = "--psm 7") print(ocr_str)

效果:

 

至此完成了数据训练和使用,看代码应该简单明了的知道如何使用yy训练数据集了,该方法生成的tif还可以通过 jTessBoxEditor修改,最终提高识别效果。具体方法请自行搜索,关于该库的使用和环境配置就介绍到这里,谢谢你的阅读。如文章有不懂的地方,请私信或者留言。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有